ارتقاء کیفیت بازشناسی گفتار تلفنی و غیر تلفنی با استفاده از اشتراک دانش آوایی دادگان

thesis
  • وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی
  • author ایمان اسمعیلی
  • adviser منصور ولی
  • Number of pages: First 15 pages
  • publication year 1389
abstract

سیستمهای بازشناسی مقاوم گفتار به سیستمهایی اطلاق می گردد که در شرایط عدم انطباق داده های آموزش و آزمون صحت بازشناسی قابل قبولی داشته باشند. در تحقیق حاضر یک سیستم بازشناسی مقاوم گفتار تلفنی، مبتنی بر اصلاح بردارهای بازنمایی توسط شبکه عصبی دوسویه (یک شبکه عصبی چند لایه معمولی به علاوه یک شاخه برگشتی که اطلاعات لایه مخفی شبکه را با ورودی شبکه ترکیب می کند) و مدلهای مخفی مارکف به عنوان مدلهای بازشناسی آوا های گفتار فارسی طراحی شده است. به این ترتیب که بردارهای بازنمایی لگاریتم انرژی بانکهای فیلتر (lfbe) از سیگنال گفتار تلفنی و میکروفنی استخراج شده و به صورت توأمان به یک شبکه عصبی دو سویه تعلیم داده می شوند. در طی فرایند آموزش، از دانش آوایی نهفته در لایه مخفی شبکه استفاده شده، وزنهای شبکه در جهت افزایش صحت بازشناسی آوا اصلاح می شوند. سپس توسط همین شبکه کلیه بردارهای بازنمایی گفتار تلفنی و میکروفنی با چند دور گردش در شبکه اصلاح می شوند. فرآیند فوق، برای اصلاح مجدد بردارهای بازنمایی گفتار تلفنی و میکروفنی از روی بردارهای اصلاح شده قبلی، توسط شبکه عصبی دوسویه تکرار شده و آنها را بردارهای بازنمایی اصلاح شده دو مرحله ای می نامیم. سپس برای ارزیابی کارآیی شبکه دوسویه در اصلاح بردارهای بازنمایی، سه سری از مدلهای مخفی مارکف (hmm) برای بازشناسی آواها تعلیم داده می شوند. سری اول مدلهای تعلیم داده شده بر روی بردارهای بازنمایی اصلاح نشده که آنها را مدلهای مرجع می نامیم، سری دوم مدلهای تعلیم داده شده بر روی بردارهای بازنمایی اصلاح شده یک مرحله ای و سری سوم مدلهای تعلیم داده شده بر روی برداهای بازنمایی اصلاح شده دو مرحله ای هستند. با اعمال تبدیل کسینوسی گسسته بر روی بردارهای بازنمایی lfbe، بردارهای بازنمایی mfcc نظیر آنها بدست می آیند. صحت بازشناسی آوای گفتار میکروفنی با بردارهای اصلاح شده یک مرحله ای lfbe و mfcc به ترتیب 4 و 4/3 درصد و با بردارهای بازنمایی اصلاح شده دو مرحله ای lfbe و mfcc 3/5 و 7/4 درصد نسبت به مدل مرجع افزایش می یابد و درصد بازشناسی گفتار تلفنی با بردارهای بازنمایی اصلاح شده یک مرحله ای lfbe و mfcc 1/7 و 1/6 درصد و با بردارهای بازنمایی اصلاح شده دو مرحله ای lfbe و mfcc 2/8 و 3/9 درصد نسبت به مدل مرجع افزایش می یابد. به منظور محک زدن شبکه در شرایط عدم انطباق، مدلهای آموزش دیده با بردارهای بازنمایی میکروفنی توسط بردارهای بازنمایی تلفنی ارزیابی شده اند. در این شرایط، صحت بازشناسی مدل های تعلیم یافته توسط بردارهای بازنمایی میکروفنی که توسط بردارهای بازنمایی تلفنی اصلاح شده یک مرحله ای و دو مرحله ای ارزیابی شده اند به ترتیب 3/22 درصد و 6/26 درصد نسبت به مدل آموزش دیده با بردارهای بازنمایی اصلاح نشده افزایش می یابد. در ادامه روش اصلاح بردارهای بازنمایی مبتنی بر شبکه عصبی دوسویه با روشهای معمول تطبیق مدل (mllr, map وmllr+map) ترکیب می شوند. صحت بازشناسی ترکیب بردارهای اصلاح شده با تکنیکهای map, mllr و mllr + map در مدلهای hmm تعلیم داده شده با برداربازنمایی اصلاح شده دو مرحله ای به ترتیب 7/37 درصد، 6/39 درصد و 2/40 نسبت به مدل آموزش دیده با بردارهای بازنمایی اصلاح نشده، افزایش می یابد. نتایج به خوبی نشان می دهد که فرضیه ما مبنی بر توانایی شبکه عصبی در اصلاح بردارهای بازنمایی میکروفنی و تلفنی و موثر بودن ترکیب آن با روشهای تطبیق مدل صحیح است.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

بررسی اثرات خطوط تلفنی بر روی سیگنال صوتی و جبران اثرات نویز تلفنی بر سیستم بازشناسی گفتار فارسی

شرایط محیطی دریافت صوت از جمله محدودیت پهنای باند در کانال انتقال استفاده از وسایل با کیفیت پایین و اثر میکروفن بعنوان نویز کانوالو شونده و همچنین اثرات جریان هوا و گفتگوهای زمینه و .... بعنوان نویز جمع شونده باعث افت آشکار در کارایی سیستم های بازشناسی گفتار می شود. هدف از روشهای مقاوم سازی در برابر نویز کم کردن عدم تطابق بین توزیع بردارهای ویژگی در تشخیص دهنده و داده ا آزمون و بالابردن کارایی ...

15 صفحه اول

روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه

Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...

full text

بازشناسی گوینده مستقل از متن براساس گفتار تلفنی توسط شبکه های عصبی

در این پایان نامه سیستمی به منظور بازشناسی هویت گوینده مستقل از متن براساس گفتار تلفنی و به کمک شبکه های عصبی طراحی و پیاده سازی شده است . جهت این کار از دو دادگان گفتار زبان فارسی farsdat و tfarsdat استفاده شده است .

15 صفحه اول

بررسی موردی کاهش آوایی در ارقام تلفنی فارسی .زهرا محمودزاده/محمد بحرانی

  بررسی موردی کاهش آوایی در ارقام تلفنی فارسی     زهرا محمودزاده [1]   محمد بحرانی [2]     تاریخ دریافت: 15/6/90   تاریخ تصویب: 19/4/91     چکیده   کاهش از جمله فرایندهای آوایی است که برای سیستم‌های بازشناسی گفتار یک چالش محسوب می‌شود. ازجمله این موارد، کاهش ارقام تلفنی مانند "دو-نه"، "هفت-هشت" و "سه-صفر" است. تجزیه و تحلیل آوایی سیگنال‌های تلفنی /sefr/-/se/ نشان م...

full text

بازشناسی مقاوم گفتار تلفنی فارسی مبتنی بر روش سری های تیلور برداری

برای مقاوم سازی سیستم بازشناسی گفتار در برابر عوامل مزاحم محیطی (نویز جمع شونده، اثر اعوجاج کانال انتقال و نویزهای گذرا) سه ایده کلی وجود دارد: 1- استخراج وی‍ژگی های مقاوم(robust feature extraction) 2- بهبود کیفیت بردارهای بازنمایی (feature enhancement) 3- اصلاح مدل بازشناسی صوتی (acoustic model compensation) در ایده اول سعی می شود تا از ویژگی ها و پارمترهایی از سیگنال گفتار برای ساخت بر...

15 صفحه اول

آمارگیری‌های تلفنی

آمارگیری‌های تلفنی از سالیان بسیار دور در کشورهای توسعه‌یافته متداول است، اما این روش در کشورهای در حال توسعه به‌علت پایین بودن پوشش تلفن رواج نیافته است، هرچند در سال‌های اخیر، در این کشورها با افزایش پوشش تلفن، از مصاحبه‌ی تلفنی به‌عنوان یک روش جمع آوری داده استفاده می‌شود. در آمارگیری‌های تلفنی، واحدهای نمونه‌گیری از چارچوب‌های مختلف شماره‌ی تلفن انتخاب می‌شوند لذا خطاهای آمارگیری نظیر خطاها...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023